1
Definir la Optimalidad en la Inferencia Estadística
MATH003Lesson 8
00:00
En el vasto territorio de los datos estadísticos, somos cazadores buscando la verdad—el verdadero parámetro $\psi(\theta)$. Pero ¿cómo decidimos cuál flecha (estimador) es la mejor? Optimalidad no es una sensación vaga; es el arte matemático de minimizar la pérdida. Para encontrar el 'mejor' estimador, nos dirigimos hacia el Error Cuadrático Medio (MSE), que se descompone elegantemente en la tensión entre dos fuerzas fundamentales: Varianza y Sesgo.

Definir el Estándar Oro: Error Cuadrático Medio (MSE)

Para cuantificar cuán lejos está nuestra estimación $T$ del valor real $\psi(\theta)$, definimos el Error Cuadrático Medio (Definición 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

Este es la distancia cuadrada promedio entre nuestro estimador y el objetivo. Un estimador perfecto tendría un MSE de cero, pero en un mundo de ruido aleatorio, nos esforzamos por minimizarlo.

Teorema 8.1.1: La Arquitectura del Error

¿Por qué falla un estimador? El Teorema 8.1.1 proporciona el plano. Si $T$ tiene un segundo momento finito, el error respecto a cualquier constante $c$ viene dado por:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

Esta fórmula revela que el error cuadrado total se minimiza solo cuando elegimos $c = E(T)$. En el contexto de la inferencia, establecemos $c = \psi(\theta)$, lo que conduce a la famosa descomposición:

MSE = Varianza + Sesgo$^2$

El Compromiso entre Precisión y Exactitud

Imagina dos balanzas en un laboratorio de control de calidad:

  • El Reliquia Precisa: Da el mismo peso cada vez (baja varianza), pero está mal calibrada en 2 gramos (alto sesgo).
  • El Sabio Errático: Es correcto en promedio (sesgo cero), pero oscila salvajemente entre mediciones (alta varianza).

El Teorema 8.1.1 nos permite calcular exactamente cuál balanza proporciona el error total más bajo. A menudo, estamos dispuestos a aceptar una pequeña desviación sistemática (sesgo) si reduce drásticamente el ruido (varianza).

Ejemplo 8.1.1: Suficiencia e Información

La optimalidad está ligada a Información. Considera un espacio muestral $S = \{1, 2, 3, 4\}$. Si los resultados 2, 3 y 4 son igualmente probables bajo cualquier parámetro posible, portan la misma verosimilitud. Podemos definir un estadístico suficiente $U$ que agrupa estos resultados sin perder ninguna capacidad para realizar una inferencia óptima. Como se muestra en la simulación, si $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$, un estimador óptimo los trata como un solo evento informativo.

🎯 Principio Fundamental
Un estimador es óptimo cuando minimiza la pérdida esperada. Para la pérdida cuadrática, esto significa encontrar el punto donde la suma de la Varianza y el Sesgo² alcanza su mínimo absoluto.